1 Третье проектное задание:“Мыши”

1.1 Создание набора данных для анализа и его описание

Исследуемый набор данных состоит из уровней экспрессии 77 белков / модификаций белков, которые производили детектируемые сигналы в ядерной фракции коры. Было 38 контрольных мышей и 34 трисомических мыши (синдром Дауна), всего 72 мыши. В экспериментах было зарегистрировано 15 измерений каждого белка на образец / мышь. Таким образом, для контрольных мышей существует 38x15 или 570 измерений, а для трисомных мышей - 34x15 или 510 измерений. Набор данных содержит в общей сложности 1080 измерений на белок. Каждое измерение можно рассматривать как независимый образец / мышь.

Восемь классов мышей описаны на основе таких характеристик, как генотип, поведение и лечение. По генотипу мыши могут быть контрольными или трисомными. В соответствии с поведением некоторые мыши были стимулированы к обучению (context-shock), а другие нет (shock-context), и для того, чтобы оценить влияние препарата “мемантин” на восстановление способности к обучению у трисомных мышей, некоторые мыши были подвергнуты стимуляции через введение препарата, а другие нет.

Всего в эксперименте можно выделить 8 классов мышей:

  1. c-CS-s: контрольные мыши, стимулированные к обучению, инъецированные физиологическим раствором (9 мышей)

  2. c-CS-m: контрольные мыши, стимулированные к обучению, инъецированные мемантином (10 мышей)

  3. c-SC-s: контрольные мыши , не стимулировали к обучению, инъецировали физиологический раствор (9 мышей)

  4. c-SC-m: контрольные мыши, не стимулировали к обучению, инъецировали мемантин (10 мышей)

  5. t-CS-s: мыши с трисомией, стимулированные к обучению, инъецированные физиологическим раствором (7 мышей)

  6. t-CS-m: мыши с трисомией, стимулированные к обучению, инъецированные мемантином (9 мышей)

  7. t-SC-s: мыши с трисомией, не стимулировали к обучению, вводили физиологический раствор (9 мышей)

  8. t-SC-m: мыши с трисомией, не стимулировали к обучению, инъецировали мемантин (9 мышей)

Для анализа данных были загружены следующие пакеты:

require(xlsx)
require(dplyr)
require(tidyverse)
require(plyr)
require(psych)
require(car)
require(corrplot)
require(ggpubr)
require(multcomp)
require(PerformanceAnalytics)
require(vegan)
require(factoextra)

Загрузим данные и выведем их содержимое:

## 'data.frame':    1080 obs. of  82 variables:
##  $ MouseID        : Factor w/ 1080 levels "18899_1","18899_10",..: 46 53 54 55 56 57 58 59 60 47 ...
##  $ DYRK1A_N       : num  0.504 0.515 0.509 0.442 0.435 ...
##  $ ITSN1_N        : num  0.747 0.689 0.73 0.617 0.617 ...
##  $ BDNF_N         : num  0.43 0.412 0.418 0.359 0.359 ...
##  $ NR1_N          : num  2.82 2.79 2.69 2.47 2.37 ...
##  $ NR2A_N         : num  5.99 5.69 5.62 4.98 4.72 ...
##  $ pAKT_N         : num  0.219 0.212 0.209 0.223 0.213 ...
##  $ pBRAF_N        : num  0.178 0.173 0.176 0.176 0.174 ...
##  $ pCAMKII_N      : num  2.37 2.29 2.28 2.15 2.13 ...
##  $ pCREB_N        : num  0.232 0.227 0.23 0.207 0.192 ...
##  $ pELK_N         : num  1.75 1.6 1.56 1.6 1.5 ...
##  $ pERK_N         : num  0.688 0.695 0.677 0.583 0.551 ...
##  $ pJNK_N         : num  0.306 0.299 0.291 0.297 0.287 ...
##  $ PKCA_N         : num  0.403 0.386 0.381 0.377 0.364 ...
##  $ pMEK_N         : num  0.297 0.281 0.282 0.314 0.278 ...
##  $ pNR1_N         : num  1.022 0.957 1.004 0.875 0.865 ...
##  $ pNR2A_N        : num  0.606 0.588 0.602 0.52 0.508 ...
##  $ pNR2B_N        : num  1.88 1.73 1.73 1.57 1.48 ...
##  $ pPKCAB_N       : num  2.31 2.04 2.02 2.13 2.01 ...
##  $ pRSK_N         : num  0.442 0.445 0.468 0.478 0.483 ...
##  $ AKT_N          : num  0.859 0.835 0.814 0.728 0.688 ...
##  $ BRAF_N         : num  0.416 0.4 0.4 0.386 0.368 ...
##  $ CAMKII_N       : num  0.37 0.356 0.368 0.363 0.355 ...
##  $ CREB_N         : num  0.179 0.174 0.174 0.179 0.175 ...
##  $ ELK_N          : num  1.87 1.76 1.77 1.29 1.32 ...
##  $ ERK_N          : num  3.69 3.49 3.57 2.97 2.9 ...
##  $ GSK3B_N        : num  1.54 1.51 1.5 1.42 1.36 ...
##  $ JNK_N          : num  0.265 0.256 0.26 0.26 0.251 ...
##  $ MEK_N          : num  0.32 0.304 0.312 0.279 0.274 ...
##  $ TRKA_N         : num  0.814 0.781 0.785 0.734 0.703 ...
##  $ RSK_N          : num  0.166 0.157 0.161 0.162 0.155 ...
##  $ APP_N          : num  0.454 0.431 0.423 0.411 0.399 ...
##  $ Bcatenin_N     : num  3.04 2.92 2.94 2.5 2.46 ...
##  $ SOD1_N         : num  0.37 0.342 0.344 0.345 0.329 ...
##  $ MTOR_N         : num  0.459 0.424 0.425 0.429 0.409 ...
##  $ P38_N          : num  0.335 0.325 0.325 0.33 0.313 ...
##  $ pMTOR_N        : num  0.825 0.762 0.757 0.747 0.692 ...
##  $ DSCR1_N        : num  0.577 0.545 0.544 0.547 0.537 ...
##  $ AMPKA_N        : num  0.448 0.421 0.405 0.387 0.361 ...
##  $ NR2B_N         : num  0.586 0.545 0.553 0.548 0.513 ...
##  $ pNUMB_N        : num  0.395 0.368 0.364 0.367 0.352 ...
##  $ RAPTOR_N       : num  0.34 0.322 0.313 0.328 0.312 ...
##  $ TIAM1_N        : num  0.483 0.455 0.447 0.443 0.419 ...
##  $ pP70S6_N       : num  0.294 0.276 0.257 0.399 0.393 ...
##  $ NUMB_N         : num  0.182 0.182 0.184 0.162 0.16 ...
##  $ P70S6_N        : num  0.843 0.848 0.856 0.76 0.768 ...
##  $ pGSK3B_N       : num  0.193 0.195 0.201 0.184 0.186 ...
##  $ pPKCG_N        : num  1.44 1.44 1.52 1.61 1.65 ...
##  $ CDK5_N         : num  0.295 0.294 0.302 0.296 0.297 ...
##  $ S6_N           : num  0.355 0.355 0.386 0.291 0.309 ...
##  $ ADARB1_N       : num  1.34 1.31 1.28 1.2 1.21 ...
##  $ AcetylH3K9_N   : num  0.17 0.171 0.185 0.16 0.165 ...
##  $ RRP1_N         : num  0.159 0.158 0.149 0.166 0.161 ...
##  $ BAX_N          : num  0.189 0.185 0.191 0.185 0.188 ...
##  $ ARC_N          : num  0.106 0.107 0.108 0.103 0.105 ...
##  $ ERBB4_N        : num  0.145 0.15 0.145 0.141 0.142 ...
##  $ nNOS_N         : num  0.177 0.178 0.176 0.164 0.168 ...
##  $ Tau_N          : num  0.125 0.134 0.133 0.123 0.137 ...
##  $ GFAP_N         : num  0.115 0.118 0.118 0.117 0.116 ...
##  $ GluR3_N        : num  0.228 0.238 0.245 0.235 0.256 ...
##  $ GluR4_N        : num  0.143 0.142 0.142 0.145 0.141 ...
##  $ IL1B_N         : num  0.431 0.457 0.51 0.431 0.481 ...
##  $ P3525_N        : num  0.248 0.258 0.255 0.251 0.252 ...
##  $ pCASP9_N       : num  1.6 1.67 1.66 1.48 1.53 ...
##  $ PSD95_N        : num  2.01 2 2.02 1.96 2.01 ...
##  $ SNCA_N         : num  0.108 0.11 0.108 0.12 0.12 ...
##  $ Ubiquitin_N    : num  1.045 1.01 0.997 0.99 0.998 ...
##  $ pGSK3B_Tyr216_N: num  0.832 0.849 0.847 0.833 0.879 ...
##  $ SHH_N          : num  0.189 0.2 0.194 0.192 0.206 ...
##  $ BAD_N          : num  0.123 0.117 0.119 0.133 0.13 ...
##  $ BCL2_N         : num  NA NA NA NA NA NA NA NA NA NA ...
##  $ pS6_N          : num  0.106 0.107 0.108 0.103 0.105 ...
##  $ pCFOS_N        : num  0.108 0.104 0.106 0.111 0.111 ...
##  $ SYP_N          : num  0.427 0.442 0.436 0.392 0.434 ...
##  $ H3AcK18_N      : num  0.115 0.112 0.112 0.13 0.118 ...
##  $ EGR1_N         : num  0.132 0.135 0.133 0.147 0.14 ...
##  $ H3MeK4_N       : num  0.128 0.131 0.127 0.147 0.148 ...
##  $ CaNA_N         : num  1.68 1.74 1.93 1.7 1.84 ...
##  $ Genotype       : Factor w/ 2 levels "Control","Ts65Dn": 1 1 1 1 1 1 1 1 1 1 ...
##  $ Treatment      : Factor w/ 2 levels "Memantine","Saline": 1 1 1 1 1 1 1 1 1 1 ...
##  $ Behavior       : Factor w/ 2 levels "C/S","S/C": 1 1 1 1 1 1 1 1 1 1 ...
##  $ class          : Factor w/ 8 levels "c-CS-m","c-CS-s",..: 1 1 1 1 1 1 1 1 1 1 ...

Становится видно, что исследуемые данные имеют 82 переменные из которых 78 количественные и 4 качественные. Проверим количественые переменные на наличее пропущенных значений:

## 
## FALSE  TRUE 
## 87164  1396

Анализ показал большое число пропусков значений в данных. Удалим строки с пропусками и выведем результат:

## 'data.frame':    552 obs. of  82 variables:
##  $ MouseID        : Factor w/ 1080 levels "18899_1","18899_10",..: 181 188 189 190 191 192 193 194 195 182 ...
##  $ DYRK1A_N       : num  0.65 0.616 0.637 0.577 0.543 ...
##  $ ITSN1_N        : num  0.829 0.842 0.853 0.755 0.758 ...
##  $ BDNF_N         : num  0.406 0.389 0.401 0.348 0.35 ...
##  $ NR1_N          : num  2.92 2.86 2.97 2.62 2.63 ...
##  $ NR2A_N         : num  5.17 5.19 5.35 4.73 4.74 ...
##  $ pAKT_N         : num  0.207 0.223 0.209 0.206 0.211 ...
##  $ pBRAF_N        : num  0.177 0.168 0.173 0.161 0.166 ...
##  $ pCAMKII_N      : num  3.73 3.65 3.81 3.78 3.87 ...
##  $ pCREB_N        : num  0.239 0.221 0.222 0.194 0.194 ...
##  $ pELK_N         : num  1.67 1.57 1.74 1.51 1.53 ...
##  $ pERK_N         : num  0.969 0.992 0.99 0.819 0.815 ...
##  $ pJNK_N         : num  0.321 0.343 0.329 0.312 0.315 ...
##  $ PKCA_N         : num  0.407 0.397 0.398 0.386 0.392 ...
##  $ pMEK_N         : num  0.255 0.271 0.264 0.242 0.254 ...
##  $ pNR1_N         : num  1.056 1.033 1.092 0.948 0.955 ...
##  $ pNR2A_N        : num  1.099 1.079 1.094 0.925 0.938 ...
##  $ pNR2B_N        : num  1.93 1.89 1.92 1.76 1.74 ...
##  $ pPKCAB_N       : num  2.23 2.33 1.95 2.3 2.48 ...
##  $ pRSK_N         : num  0.427 0.409 0.454 0.485 0.477 ...
##  $ AKT_N          : num  0.873 0.789 0.794 0.742 0.716 ...
##  $ BRAF_N         : num  0.513 0.512 0.533 0.459 0.486 ...
##  $ CAMKII_N       : num  0.343 0.345 0.352 0.338 0.339 ...
##  $ CREB_N         : num  0.168 0.167 0.173 0.162 0.161 ...
##  $ ELK_N          : num  1.85 1.85 1.97 1.36 1.4 ...
##  $ ERK_N          : num  3.37 3.43 3.43 2.81 2.89 ...
##  $ GSK3B_N        : num  1.5 1.47 1.54 1.44 1.47 ...
##  $ JNK_N          : num  0.246 0.242 0.252 0.235 0.235 ...
##  $ MEK_N          : num  0.305 0.3 0.346 0.275 0.27 ...
##  $ TRKA_N         : num  0.851 0.834 0.881 0.766 0.755 ...
##  $ RSK_N          : num  0.165 0.163 0.165 0.151 0.15 ...
##  $ APP_N          : num  0.442 0.437 0.443 0.408 0.411 ...
##  $ Bcatenin_N     : num  2.58 2.54 2.61 2.31 2.32 ...
##  $ SOD1_N         : num  0.341 0.338 0.342 0.312 0.309 ...
##  $ MTOR_N         : num  0.488 0.473 0.494 0.466 0.472 ...
##  $ P38_N          : num  0.401 0.402 0.411 0.395 0.394 ...
##  $ pMTOR_N        : num  0.781 0.787 0.813 0.741 0.739 ...
##  $ DSCR1_N        : num  0.534 0.533 0.565 0.523 0.542 ...
##  $ AMPKA_N        : num  0.432 0.43 0.441 0.392 0.39 ...
##  $ NR2B_N         : num  0.618 0.603 0.64 0.585 0.587 ...
##  $ pNUMB_N        : num  0.361 0.36 0.374 0.345 0.347 ...
##  $ RAPTOR_N       : num  0.322 0.296 0.3 0.287 0.29 ...
##  $ TIAM1_N        : num  0.427 0.426 0.445 0.4 0.406 ...
##  $ pP70S6_N       : num  0.252 0.252 0.252 0.277 0.355 ...
##  $ NUMB_N         : num  0.242 0.242 0.241 0.209 0.213 ...
##  $ P70S6_N        : num  1.061 1.064 1.059 0.969 0.973 ...
##  $ pGSK3B_N       : num  0.164 0.17 0.175 0.154 0.163 ...
##  $ pPKCG_N        : num  1.86 1.69 1.65 2.03 1.97 ...
##  $ CDK5_N         : num  0.321 0.32 0.318 0.3 0.303 ...
##  $ S6_N           : num  0.541 0.539 0.562 0.467 0.492 ...
##  $ ADARB1_N       : num  2.16 2.17 2.18 1.8 1.76 ...
##  $ AcetylH3K9_N   : num  0.135 0.136 0.136 0.126 0.124 ...
##  $ RRP1_N         : num  0.158 0.162 0.168 0.144 0.154 ...
##  $ BAX_N          : num  0.196 0.193 0.192 0.177 0.188 ...
##  $ ARC_N          : num  0.132 0.139 0.135 0.119 0.129 ...
##  $ ERBB4_N        : num  0.161 0.162 0.181 0.164 0.168 ...
##  $ nNOS_N         : num  0.211 0.211 0.203 0.195 0.197 ...
##  $ Tau_N          : num  0.21 0.193 0.204 0.194 0.197 ...
##  $ GFAP_N         : num  0.128 0.135 0.13 0.119 0.129 ...
##  $ GluR3_N        : num  0.292 0.291 0.27 0.277 0.283 ...
##  $ GluR4_N        : num  0.153 0.152 0.154 0.135 0.137 ...
##  $ IL1B_N         : num  0.527 0.52 0.506 0.527 0.543 ...
##  $ P3525_N        : num  0.348 0.365 0.35 0.317 0.34 ...
##  $ pCASP9_N       : num  1.69 1.66 1.72 1.59 1.62 ...
##  $ PSD95_N        : num  2.44 2.35 2.44 2.38 2.39 ...
##  $ SNCA_N         : num  0.168 0.175 0.156 0.145 0.151 ...
##  $ Ubiquitin_N    : num  1.14 1.23 1.23 1.06 1.13 ...
##  $ pGSK3B_Tyr216_N: num  0.988 0.982 0.994 0.97 0.981 ...
##  $ SHH_N          : num  0.24 0.249 0.248 0.233 0.244 ...
##  $ BAD_N          : num  0.139 0.134 0.142 0.134 0.133 ...
##  $ BCL2_N         : num  0.113 0.122 0.13 0.107 0.113 ...
##  $ pS6_N          : num  0.132 0.139 0.135 0.119 0.129 ...
##  $ pCFOS_N        : num  0.129 0.143 0.148 0.121 0.143 ...
##  $ SYP_N          : num  0.487 0.468 0.463 0.479 0.438 ...
##  $ H3AcK18_N      : num  0.125 0.113 0.116 0.103 0.111 ...
##  $ EGR1_N         : num  0.147 0.161 0.161 0.144 0.156 ...
##  $ H3MeK4_N       : num  0.144 0.146 0.143 0.142 0.146 ...
##  $ CaNA_N         : num  1.63 1.56 1.57 1.65 1.61 ...
##  $ Genotype       : Factor w/ 2 levels "Control","Ts65Dn": 1 1 1 1 1 1 1 1 1 1 ...
##  $ Treatment      : Factor w/ 2 levels "Memantine","Saline": 1 1 1 1 1 1 1 1 1 1 ...
##  $ Behavior       : Factor w/ 2 levels "C/S","S/C": 1 1 1 1 1 1 1 1 1 1 ...
##  $ class          : Factor w/ 8 levels "c-CS-m","c-CS-s",..: 1 1 1 1 1 1 1 1 1 1 ...
##  - attr(*, "na.action")= 'omit' Named int  1 2 3 4 5 6 7 8 9 10 ...
##   ..- attr(*, "names")= chr  "1" "2" "3" "4" ...

От 1080 наблюдений осталось всего 552. Выведем количество значений по группам для изначального и модифицированного наборов данных.

## 
## c-CS-m c-CS-s c-SC-m c-SC-s t-CS-m t-CS-s t-SC-m t-SC-s 
##    150    135    150    135    135    105    135    135
## 
## c-CS-m c-CS-s c-SC-m c-SC-s t-CS-m t-CS-s t-SC-m t-SC-s 
##     45     75     60     75     90     75     60     72

Согласно представленным таблицам, исследуемые группы имеют неравное число наблюдений в своем составе, что может отразиться на дальнейшем анализе. Следует отметить, что при удалении строчек с пропущенными значениями нарушение бланса между группами возрастает. Также поскольку количество пропусков крайне велико их замена на какие-либо другие значения способно исказить последующий анализ. Таким образом лучшим выходом из данной ситуации будет оставить dataset в своем изначальном виде.

1.2 Есть ли различия в уровне продукции BDNF_N в зависимости от класса в эксперименте

Выведем график зависимости экспрессии BDNF от экспериментальных классов.

Согласно построенному графику можно первоначально предположить, что экспрессия BDNF у контрольных мышей стимулированных к обучению будет отличаться от таковой у остальных классов и иметь наиболее выcокие значения. Наиболее низкме значения, статестически отличные от значений в остальных классах будут наблюдаться у контрольных мышей не стимулированных к обучению, инъецированных физиологическим раствором. Несколько более высокий уровень будет наблюдаться у контрольных мышей не стимулированных к обучению, инъецированных мемантином и мышей с трисомией стимулированых к обучению. Отдельную группу с еще более высокими значениями экспрессии BDNF образуют не стимулированные к обучению мыши с трисомией.

График box-plot демонстрирует наличие не значительного числа выбросов в большинстве классов.

После общего описания данных прейдм к множественному сравнению при помощи однофактороного ANOVA. В начале построим линейную модель зависимости экспресии BDNF от экспериментальных классов и выведем ее описание:

## 
## Call:
## lm(formula = BDNF_N ~ class, data = data_of_mice)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -0.175764 -0.028777 -0.001609  0.028701  0.159388 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.339217   0.003817  88.871  < 2e-16 ***
## classc-CS-s  0.003098   0.005546   0.559   0.5766    
## classc-SC-m -0.048272   0.005398  -8.942  < 2e-16 ***
## classc-SC-s -0.025825   0.005546  -4.657 3.62e-06 ***
## classt-CS-m -0.026485   0.005546  -4.776 2.04e-06 ***
## classt-CS-s -0.033757   0.005948  -5.675 1.78e-08 ***
## classt-SC-m -0.018154   0.005546  -3.273   0.0011 ** 
## classt-SC-s -0.013631   0.005579  -2.443   0.0147 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.04675 on 1069 degrees of freedom
##   (3 observations deleted due to missingness)
## Multiple R-squared:  0.1097, Adjusted R-squared:  0.1039 
## F-statistic: 18.82 on 7 and 1069 DF,  p-value: < 2.2e-16

Полученные данные демонстрируют вклад всех классов за исключением контрольных мышей , не стимулированных к обучению, инъецированных физиологическим раствором.

Проведем анализ Anova и выведем результат:

## Anova Table (Type II tests)
## 
## Response: BDNF_N
##            Sum Sq   Df F value    Pr(>F)    
## class     0.28784    7  18.816 < 2.2e-16 ***
## Residuals 2.33619 1069                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Согласно проведенному анализу экспериментальные классы мышей демонстрируют различные уровни продукции BDNF. Проверем корректность проведенного анализа. Построим график расстояний Кука и график остатков.

График растояний Кука в нормк. График остатков демонстрирует выбросы, однако box-plots расположены равномерно, их медианы располагаются на 1 уровне, что сведетельствует о равномерном разбросе остатков. Дополнительно построим квантильный график остатков.

Становится видно, что величина распределена приблизительно нормально, таким образом, действительно, экспериментальные классы мышей демонстрируют различные уровни продукции BDNF. Осталось выяснить какие группы различаются между собой для этого применим пост - хок тест Тьюки.

## 
##   Simultaneous Tests for General Linear Hypotheses
## 
## Multiple Comparisons of Means: Tukey Contrasts
## 
## 
## Fit: lm(formula = BDNF_N ~ class, data = data_of_mice)
## 
## Linear Hypotheses:
##                        Estimate Std. Error t value Pr(>|t|)    
## c-CS-s - c-CS-m == 0  0.0030979  0.0055459   0.559   0.9993    
## c-SC-m - c-CS-m == 0 -0.0482717  0.0053980  -8.942    <0.01 ***
## c-SC-s - c-CS-m == 0 -0.0258249  0.0055459  -4.657    <0.01 ***
## t-CS-m - c-CS-m == 0 -0.0264852  0.0055459  -4.776    <0.01 ***
## t-CS-s - c-CS-m == 0 -0.0337570  0.0059483  -5.675    <0.01 ***
## t-SC-m - c-CS-m == 0 -0.0181541  0.0055459  -3.273   0.0245 *  
## t-SC-s - c-CS-m == 0 -0.0136310  0.0055790  -2.443   0.2216    
## c-SC-m - c-CS-s == 0 -0.0513696  0.0055459  -9.263    <0.01 ***
## c-SC-s - c-CS-s == 0 -0.0289228  0.0056900  -5.083    <0.01 ***
## t-CS-m - c-CS-s == 0 -0.0295831  0.0056900  -5.199    <0.01 ***
## t-CS-s - c-CS-s == 0 -0.0368549  0.0060829  -6.059    <0.01 ***
## t-SC-m - c-CS-s == 0 -0.0212520  0.0056900  -3.735    <0.01 ** 
## t-SC-s - c-CS-s == 0 -0.0167289  0.0057223  -2.923   0.0688 .  
## c-SC-s - c-SC-m == 0  0.0224468  0.0055459   4.047    <0.01 ** 
## t-CS-m - c-SC-m == 0  0.0217865  0.0055459   3.928    <0.01 ** 
## t-CS-s - c-SC-m == 0  0.0145147  0.0059483   2.440   0.2223    
## t-SC-m - c-SC-m == 0  0.0301176  0.0055459   5.431    <0.01 ***
## t-SC-s - c-SC-m == 0  0.0346406  0.0055790   6.209    <0.01 ***
## t-CS-m - c-SC-s == 0 -0.0006603  0.0056900  -0.116   1.0000    
## t-CS-s - c-SC-s == 0 -0.0079321  0.0060829  -1.304   0.8973    
## t-SC-m - c-SC-s == 0  0.0076708  0.0056900   1.348   0.8798    
## t-SC-s - c-SC-s == 0  0.0121939  0.0057223   2.131   0.3951    
## t-CS-s - t-CS-m == 0 -0.0072718  0.0060829  -1.195   0.9332    
## t-SC-m - t-CS-m == 0  0.0083311  0.0056900   1.464   0.8260    
## t-SC-s - t-CS-m == 0  0.0128542  0.0057223   2.246   0.3239    
## t-SC-m - t-CS-s == 0  0.0156029  0.0060829   2.565   0.1696    
## t-SC-s - t-CS-s == 0  0.0201260  0.0061130   3.292   0.0230 *  
## t-SC-s - t-SC-m == 0  0.0045231  0.0057223   0.790   0.9936    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## (Adjusted p values reported -- single-step method)

Многие классы демонстрируют различия. Глядя на данную таблицу можно предположить, что трисомия и наличие стимулирования к обучению способны менять уровень экспрессии BNDF у мышей. Также следует отметить, что при некоторых стечениях обстоятельств также на продукцию BNDF у мышей способна влиять инъекция мемонтина (c-SC-s - c-SC-m ). Данный вопрос требует дополнительного изучения.

1.3 Построение линейной модели, предсказывающей уровень продукции белка ERBB4_N на основании данных о других белках в эксперименте

Для упрощению вычислений из 4 - х факторных переменых оставим одну - “class”, поскольку она должна отражать в себе оставшиеся 3 переменные. Также ввиду того, что данные содержат большое количествоколичественых переменных, адекватно визуализировать их корреляциионую матрицу не представляется возможным, поэтому было принято решение применить пользовательскую функцию от Catherine Williams доступный по адресу https://towardsdatascience.com/how-to-create-a-correlation-matrix-with-too-many-variables-309cc0c0a57. Суть применяемой функции сводится к преобразованию всех переменных в числовые значения. Затем код удаляет дубликаты и точные корреляции. Далее код настраивает таблицу данных, чтобы увидеть необработанные корреляции в таблице, поскольку необработанные числа могут быть полезны. Фрейм данных сортируется по наивысшей корреляции. Чтобы уменьшить огромное количество переменных, выбираются только переменные, превышающие определенный порог уровня значимости, установленный на 0,45. Результаты будут выведены в виде графика. Только корреляции с достаточно высоким уровнем значимости будут отмечены цветным кружком. Это дополнительно помогает вырезать шум.

##              Var1        Var2      Freq
## 4363 AcetylH3K9_N       Tau_N 0.8113332
## 4212        ARC_N     ERBB4_N 0.7086411
## 5445      ERBB4_N       pS6_N 0.7086411
## 3432       NUMB_N     P70S6_N 0.6824487
## 5059        ARC_N Ubiquitin_N 0.6665736
## 5456  Ubiquitin_N       pS6_N 0.6665736
## 4819      P70S6_N    pCASP9_N 0.6333593
## 4674        ARC_N      IL1B_N 0.6243183
## 5451       IL1B_N       pS6_N 0.6243183
## 3740       NUMB_N        S6_N 0.6184451
## 4048       NUMB_N       BAX_N 0.6179417
## 4675      ERBB4_N      IL1B_N 0.6177887
## 4906      ERBB4_N     PSD95_N 0.6114546
## 4602      GluR3_N     GluR4_N 0.6015178
## 4289        ARC_N      nNOS_N 0.5930117
## 5446       nNOS_N       pS6_N 0.5930117
## 4989       IL1B_N      SNCA_N 0.5920284
## 4905        ARC_N     PSD95_N 0.5911158
## 5454      PSD95_N       pS6_N 0.5911158
## 5070       SNCA_N Ubiquitin_N 0.5844368
## 4907       nNOS_N     PSD95_N 0.5789200
## 4280      P70S6_N      nNOS_N 0.5752818
## 4829      ERBB4_N    pCASP9_N 0.5694441
## 3663       NUMB_N      CDK5_N 0.5637154
## 4830       nNOS_N    pCASP9_N 0.5548202
## 4835       IL1B_N    pCASP9_N 0.5481352
## 4914     pCASP9_N     PSD95_N 0.5473894
## 4435     pGSK3B_N      GFAP_N 0.5472758
## 4982        ARC_N      SNCA_N 0.5457568
## 5455       SNCA_N       pS6_N 0.5457568
## 4752      ERBB4_N     P3525_N 0.5452492
## 5599      ERBB4_N       SYP_N 0.5398836
## 5069      PSD95_N Ubiquitin_N 0.5358113
## 5060      ERBB4_N Ubiquitin_N 0.5295921
## 4441       RRP1_N      GFAP_N 0.5245858
## 4290      ERBB4_N      nNOS_N 0.5225784
## 5220       IL1B_N       SHH_N 0.5156805
## 5607     pCASP9_N       SYP_N 0.5154686
## 4912       IL1B_N     PSD95_N 0.5061123
## 4828        ARC_N    pCASP9_N 0.4987720
## 5453     pCASP9_N       pS6_N 0.4987720
## 3742     pGSK3B_N        S6_N 0.4944863
## 5066       IL1B_N Ubiquitin_N 0.4919129
## 3665     pGSK3B_N      CDK5_N 0.4901457
## 4896      P70S6_N     PSD95_N 0.4883970
## 4049      P70S6_N       BAX_N 0.4844252
## 4054     ADARB1_N       BAX_N 0.4801734
## 5224       SNCA_N       SHH_N 0.4746816
## 4361         S6_N       Tau_N 0.4738614
## 4833      GluR3_N    pCASP9_N 0.4701700
## 5221      P3525_N       SHH_N 0.4645827
## 5592       CDK5_N       SYP_N 0.4643005
## 4052       CDK5_N       BAX_N 0.4546871

После ознакомления с корреляциями пранализируем зависимую переменную на нормальность, построив qqplot.

Становится видно, что данные об экспрессии ERBB4 распределены относительно нормально. Далее приступаем к построению модели. Следует отметить, что поскольку все данные в таблице - это белковая экспрессия стандартизацию можно не прводить в следствии одинаковой размерности предикторов.

Таким образом, основываясь на данных корреляционной матрицы зададим модель следующим образом: ERBB4_N ~ P70S6_N + pGSK3B_N + AcetylH3K9_N + RRP1_N + IL1B_N + CDK5_N + S6_N + BAX_N + GluR3_N + SHH_N + class , data = data_for_ERBB4_N_model и выведем результаты.

## 
## Call:
## lm(formula = ERBB4_N ~ P70S6_N + pGSK3B_N + AcetylH3K9_N + RRP1_N + 
##     IL1B_N + CDK5_N + S6_N + BAX_N + GluR3_N + SHH_N + class, 
##     data = data_for_ERBB4_N_model)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -0.040764 -0.005781 -0.000212  0.005101  0.031387 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   0.0404772  0.0043962   9.207  < 2e-16 ***
## P70S6_N       0.0125882  0.0023571   5.341 1.13e-07 ***
## pGSK3B_N      0.1236334  0.0216098   5.721 1.38e-08 ***
## AcetylH3K9_N  0.0109014  0.0019427   5.611 2.56e-08 ***
## RRP1_N       -0.0636483  0.0098740  -6.446 1.74e-10 ***
## IL1B_N        0.0992269  0.0052473  18.910  < 2e-16 ***
## CDK5_N        0.0776638  0.0099089   7.838 1.11e-14 ***
## S6_N          0.0059162  0.0033846   1.748  0.08075 .  
## BAX_N         0.1239437  0.0203595   6.088 1.60e-09 ***
## GluR3_N      -0.0478388  0.0091858  -5.208 2.29e-07 ***
## SHH_N         0.0255505  0.0116143   2.200  0.02803 *  
## classc-CS-s  -0.0057658  0.0011087  -5.201 2.38e-07 ***
## classc-SC-m  -0.0035246  0.0013225  -2.665  0.00781 ** 
## classc-SC-s   0.0008041  0.0012715   0.632  0.52729    
## classt-CS-m  -0.0082370  0.0010561  -7.800 1.48e-14 ***
## classt-CS-s  -0.0086605  0.0012255  -7.067 2.86e-12 ***
## classt-SC-m   0.0058520  0.0013014   4.497 7.66e-06 ***
## classt-SC-s  -0.0023019  0.0011110  -2.072  0.03851 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.008744 on 1062 degrees of freedom
## Multiple R-squared:  0.6687, Adjusted R-squared:  0.6633 
## F-statistic: 126.1 on 17 and 1062 DF,  p-value: < 2.2e-16
##                  GVIF Df GVIF^(1/(2*Df))
## P70S6_N      2.342103  1        1.530393
## pGSK3B_N     2.456658  1        1.567373
## AcetylH3K9_N 1.828827  1        1.352341
## RRP1_N       1.399633  1        1.183061
## IL1B_N       2.616258  1        1.617485
## CDK5_N       1.935974  1        1.391393
## S6_N         3.053569  1        1.747447
## BAX_N        2.073177  1        1.439853
## GluR3_N      1.449118  1        1.203793
## SHH_N        1.599656  1        1.264775
## class        6.659190  7        1.145027

Исключим незначимые предикторы с большим VIF.

## 
## Call:
## lm(formula = ERBB4_N ~ P70S6_N + pGSK3B_N + AcetylH3K9_N + RRP1_N + 
##     IL1B_N + CDK5_N + BAX_N + GluR3_N + SHH_N + class, data = data_for_ERBB4_N_model)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -0.042430 -0.005732 -0.000284  0.005051  0.031319 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   3.972e-02  4.379e-03   9.071  < 2e-16 ***
## P70S6_N       1.423e-02  2.165e-03   6.572 7.77e-11 ***
## pGSK3B_N      1.297e-01  2.135e-02   6.078 1.70e-09 ***
## AcetylH3K9_N  1.263e-02  1.674e-03   7.546 9.62e-14 ***
## RRP1_N       -6.558e-02  9.822e-03  -6.677 3.92e-11 ***
## IL1B_N        1.003e-01  5.219e-03  19.209  < 2e-16 ***
## CDK5_N        8.050e-02  9.785e-03   8.227 5.58e-16 ***
## BAX_N         1.212e-01  2.032e-02   5.965 3.32e-09 ***
## GluR3_N      -4.906e-02  9.168e-03  -5.351 1.07e-07 ***
## SHH_N         2.713e-02  1.159e-02   2.340   0.0195 *  
## classc-CS-s  -5.847e-03  1.109e-03  -5.274 1.62e-07 ***
## classc-SC-m  -4.373e-03  1.231e-03  -3.551   0.0004 ***
## classc-SC-s   4.943e-05  1.197e-03   0.041   0.9671    
## classt-CS-m  -8.124e-03  1.055e-03  -7.699 3.12e-14 ***
## classt-CS-s  -8.182e-03  1.196e-03  -6.843 1.31e-11 ***
## classt-SC-m   5.062e-03  1.222e-03   4.144 3.69e-05 ***
## classt-SC-s  -2.251e-03  1.112e-03  -2.025   0.0431 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.008753 on 1063 degrees of freedom
## Multiple R-squared:  0.6677, Adjusted R-squared:  0.6627 
## F-statistic: 133.5 on 16 and 1063 DF,  p-value: < 2.2e-16
##                  GVIF Df GVIF^(1/(2*Df))
## P70S6_N      1.971685  1        1.404167
## pGSK3B_N     2.392541  1        1.546784
## AcetylH3K9_N 1.354894  1        1.163999
## RRP1_N       1.382144  1        1.175646
## IL1B_N       2.583299  1        1.607265
## CDK5_N       1.884192  1        1.372659
## BAX_N        2.060896  1        1.435582
## GluR3_N      1.440768  1        1.200320
## SHH_N        1.590033  1        1.260965
## class        4.596289  7        1.115103
## 
## Call:
## lm(formula = ERBB4_N ~ P70S6_N + pGSK3B_N + AcetylH3K9_N + RRP1_N + 
##     IL1B_N + CDK5_N + BAX_N + GluR3_N + SHH_N + class, data = data_for_ERBB4_N_model)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -0.042430 -0.005732 -0.000284  0.005051  0.031319 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   3.972e-02  4.379e-03   9.071  < 2e-16 ***
## P70S6_N       1.423e-02  2.165e-03   6.572 7.77e-11 ***
## pGSK3B_N      1.297e-01  2.135e-02   6.078 1.70e-09 ***
## AcetylH3K9_N  1.263e-02  1.674e-03   7.546 9.62e-14 ***
## RRP1_N       -6.558e-02  9.822e-03  -6.677 3.92e-11 ***
## IL1B_N        1.003e-01  5.219e-03  19.209  < 2e-16 ***
## CDK5_N        8.050e-02  9.785e-03   8.227 5.58e-16 ***
## BAX_N         1.212e-01  2.032e-02   5.965 3.32e-09 ***
## GluR3_N      -4.906e-02  9.168e-03  -5.351 1.07e-07 ***
## SHH_N         2.713e-02  1.159e-02   2.340   0.0195 *  
## classc-CS-s  -5.847e-03  1.109e-03  -5.274 1.62e-07 ***
## classc-SC-m  -4.373e-03  1.231e-03  -3.551   0.0004 ***
## classc-SC-s   4.943e-05  1.197e-03   0.041   0.9671    
## classt-CS-m  -8.124e-03  1.055e-03  -7.699 3.12e-14 ***
## classt-CS-s  -8.182e-03  1.196e-03  -6.843 1.31e-11 ***
## classt-SC-m   5.062e-03  1.222e-03   4.144 3.69e-05 ***
## classt-SC-s  -2.251e-03  1.112e-03  -2.025   0.0431 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.008753 on 1063 degrees of freedom
## Multiple R-squared:  0.6677, Adjusted R-squared:  0.6627 
## F-statistic: 133.5 on 16 and 1063 DF,  p-value: < 2.2e-16
##                  GVIF Df GVIF^(1/(2*Df))
## P70S6_N      1.971685  1        1.404167
## pGSK3B_N     2.392541  1        1.546784
## AcetylH3K9_N 1.354894  1        1.163999
## RRP1_N       1.382144  1        1.175646
## IL1B_N       2.583299  1        1.607265
## CDK5_N       1.884192  1        1.372659
## BAX_N        2.060896  1        1.435582
## GluR3_N      1.440768  1        1.200320
## SHH_N        1.590033  1        1.260965
## class        4.596289  7        1.115103

Теперь после того как все предикторы подобраны, проведем тест полученной модели:

График остатков выходит за пределы 2 - х стандартных отклонений, что свидетельствует о неточности модели.

График расстояний Кука выглядит приемлемо. Превышение границы в 2 не наблюдается.

## [1] 359 142

qqPlot ведет себя относительно стабильно, однако по краям наблюдаются выбросы.

Подводя итоги можно предположить, что точность модели можно повысить путем проверки предикторов на выбросы и исключения их из выборки. Проиллюстрируем данную гипотизу выводом матрицы корреляций для предикторов используемых в модели:

Действительно, становится видно, что резульаты экспрессии RRP1, AcetylH3K9 имеют выбросы. На данном этапе необходимо принять решение: Производить дальнейшие манипуляции или переходить к другим методам анализа. В данном случае имеет смысл выбрать 2 вариант, ввиду того, что датасет содержит большое число переменных с автокорелляциями и выбросами отследить которые все до единого не представляется возможным (с учетом предсказательной возможности модели в 0,67). Все это свидетельствует о том, что правильным выходом из данной ситуации может быть PCA - анализ.

1.4 PCA - анализ

Возьмем датасет с удаленными значениями Na, так как функция rda не работает с пустыми значениями. Проведем ординацию и выведем результат:

## 
## Call:
## rda(X = df_analys, scale = TRUE) 
## 
## Partitioning of correlations:
##               Inertia Proportion
## Total              81          1
## Unconstrained      81          1
## 
## Eigenvalues, and their contribution to the correlations 
## 
## Importance of components:
##                           PC1     PC2     PC3     PC4     PC5     PC6     PC7
## Eigenvalue            23.0970 14.1407 7.97297 7.31147 3.69666 3.30102 2.74878
## Proportion Explained   0.2851  0.1746 0.09843 0.09027 0.04564 0.04075 0.03394
## Cumulative Proportion  0.2851  0.4597 0.55816 0.64842 0.69406 0.73481 0.76875
##                           PC8     PC9    PC10    PC11    PC12    PC13     PC14
## Eigenvalue            2.36256 1.93998 1.50754 1.40042 1.08301 0.91002 0.798595
## Proportion Explained  0.02917 0.02395 0.01861 0.01729 0.01337 0.01123 0.009859
## Cumulative Proportion 0.79792 0.82187 0.84048 0.85777 0.87114 0.88237 0.892232
##                           PC15     PC16    PC17     PC18     PC19     PC20
## Eigenvalue            0.618764 0.593689 0.55323 0.504122 0.489021 0.413466
## Proportion Explained  0.007639 0.007329 0.00683 0.006224 0.006037 0.005105
## Cumulative Proportion 0.899871 0.907200 0.91403 0.920254 0.926291 0.931396
##                           PC21     PC22     PC23     PC24     PC25     PC26
## Eigenvalue            0.407193 0.351959 0.329942 0.317443 0.294381 0.267728
## Proportion Explained  0.005027 0.004345 0.004073 0.003919 0.003634 0.003305
## Cumulative Proportion 0.936423 0.940768 0.944842 0.948761 0.952395 0.955700
##                           PC27     PC28     PC29     PC30     PC31     PC32
## Eigenvalue            0.228920 0.217243 0.203002 0.191693 0.172132 0.151264
## Proportion Explained  0.002826 0.002682 0.002506 0.002367 0.002125 0.001867
## Cumulative Proportion 0.958526 0.961208 0.963715 0.966081 0.968206 0.970074
##                           PC33     PC34    PC35    PC36     PC37     PC38
## Eigenvalue            0.135671 0.131748 0.12473 0.12397 0.114109 0.105775
## Proportion Explained  0.001675 0.001627 0.00154 0.00153 0.001409 0.001306
## Cumulative Proportion 0.971749 0.973375 0.97492 0.97645 0.977854 0.979160
##                           PC39     PC40     PC41     PC42      PC43      PC44
## Eigenvalue            0.102554 0.096625 0.090521 0.083994 0.0798158 0.0751597
## Proportion Explained  0.001266 0.001193 0.001118 0.001037 0.0009854 0.0009279
## Cumulative Proportion 0.980426 0.981619 0.982737 0.983774 0.9847590 0.9856869
##                            PC45      PC46     PC47      PC48      PC49
## Eigenvalue            0.0725920 0.0689891 0.067716 0.0591598 0.0584746
## Proportion Explained  0.0008962 0.0008517 0.000836 0.0007304 0.0007219
## Cumulative Proportion 0.9865831 0.9874348 0.988271 0.9890012 0.9897231
##                            PC50     PC51      PC52      PC53      PC54
## Eigenvalue            0.0547820 0.052892 0.0499417 0.0467837 0.0462235
## Proportion Explained  0.0006763 0.000653 0.0006166 0.0005776 0.0005707
## Cumulative Proportion 0.9903994 0.991052 0.9916690 0.9922466 0.9928172
##                            PC55      PC56      PC57     PC58     PC59      PC60
## Eigenvalue            0.0440503 0.0416746 0.0401999 0.036614 0.034504 0.0332448
## Proportion Explained  0.0005438 0.0005145 0.0004963 0.000452 0.000426 0.0004104
## Cumulative Proportion 0.9933611 0.9938756 0.9943719 0.994824 0.995250 0.9956603
##                            PC61      PC62      PC63      PC64      PC65
## Eigenvalue            0.0318440 0.0311336 0.0297768 0.0283938 0.0263085
## Proportion Explained  0.0003931 0.0003844 0.0003676 0.0003505 0.0003248
## Cumulative Proportion 0.9960534 0.9964378 0.9968054 0.9971559 0.9974807
##                            PC66      PC67    PC68      PC69      PC70   PC71
## Eigenvalue            0.0244124 0.0216714 0.02025 0.0193413 0.0181718 0.0162
## Proportion Explained  0.0003014 0.0002675 0.00025 0.0002388 0.0002243 0.0002
## Cumulative Proportion 0.9977821 0.9980497 0.99830 0.9985385 0.9987628 0.9990
##                            PC72      PC73      PC74      PC75      PC76
## Eigenvalue            0.0152113 0.0135812 0.0116809 0.0111865 0.0103286
## Proportion Explained  0.0001878 0.0001677 0.0001442 0.0001381 0.0001275
## Cumulative Proportion 0.9991506 0.9993183 0.9994625 0.9996006 0.9997281
##                            PC77      PC78      PC79
## Eigenvalue            0.0083375 7.775e-03 5.912e-03
## Proportion Explained  0.0001029 9.599e-05 7.299e-05
## Cumulative Proportion 0.9998310 9.999e-01 1.000e+00
## 
## Scaling 2 for species and site scores
## * Species are scaled proportional to eigenvalues
## * Sites are unscaled: weighted dispersion equal on all dimensions
## * General scaling constant of scores:  14.5348 
## 
## 
## Species scores
## 
##              PC1     PC2      PC3     PC4       PC5      PC6
## DYRK1A_N -0.3775 -1.1327  0.01003 -0.5280  0.347048 -0.46049
## ITSN1_N  -0.6956 -1.1489  0.10282 -0.3125  0.480518 -0.39270
## BDNF_N   -1.4202 -0.3548 -0.07998 -0.2886 -0.080859 -0.05662
## NR1_N    -1.4287 -0.2934 -0.46739  0.1449 -0.078974  0.14413
## NR2A_N   -1.2911 -0.3673 -0.63365  0.1151 -0.001899  0.02969
## pAKT_N   -1.0188  0.8294  0.39623 -0.5418 -0.010289  0.35013
## ....                                                        
## 
## 
## Site scores (weighted sums of species scores)
## 
##          PC1     PC2     PC3    PC4     PC5      PC6
## sit1 -0.7864 -0.6022 -0.4227 0.5070 -0.6061 -0.75971
## sit2 -0.7301 -0.5204 -0.3526 0.5670 -0.7246 -0.95352
## sit3 -0.8653 -0.5329 -0.3707 0.4401 -0.6368 -0.95958
## sit4 -0.2861 -0.6019 -0.4035 0.2553 -0.6273 -0.05184
## sit5 -0.3529 -0.4977 -0.2366 0.3427 -0.7560 -0.42414
## sit6 -0.3560 -0.4857 -0.2295 0.4010 -0.6532 -0.40014
## ....

Как можно видеть из summary, первые 4 компонента объясняют 65% выборки.

Как видно из графиков, вклад различных компонент в объяснения изменчивости существеннен до PC5. Таким образом, ее тоже придется включить. Выведем влияния компонент на исследуемые переменные и попытаемся интерпретировать результат:

##                          PC1          PC2          PC3          PC4
## DYRK1A_N        -0.048636223 -0.186515841  0.002198808 -0.120901870
## ITSN1_N         -0.089627912 -0.189189863  0.022547888 -0.071568979
## BDNF_N          -0.182974999 -0.058427471 -0.017539865 -0.066088370
## NR1_N           -0.184069498 -0.048318340 -0.102494845  0.033176899
## NR2A_N          -0.166346849 -0.060475730 -0.138953709  0.026361692
## pAKT_N          -0.131267360  0.136574270  0.086891206 -0.124060249
## pBRAF_N         -0.130094473  0.118929203  0.066598566 -0.146239101
## pCAMKII_N       -0.111690573  0.102394836  0.042360346 -0.025643515
## pCREB_N         -0.179951412  0.014131530  0.066491246  0.019891507
## pELK_N          -0.074047362 -0.068259133 -0.098436461 -0.110376392
## pERK_N          -0.042530098 -0.195684944 -0.029085699 -0.095442768
## pJNK_N          -0.168903851  0.085421469  0.029457743 -0.035602885
## PKCA_N          -0.152128880 -0.077333124  0.084984659 -0.092015957
## pMEK_N          -0.164356735  0.102980326  0.068239090 -0.085917493
## pNR1_N          -0.173334200 -0.020124597 -0.144901043  0.042587830
## pNR2A_N         -0.134207638  0.082170571 -0.087154503  0.132687122
## pNR2B_N         -0.178735793 -0.013917056 -0.129827974  0.054562586
## pPKCAB_N        -0.087450072 -0.158820755  0.103856626 -0.074728196
## pRSK_N          -0.105419186 -0.002994262  0.184805037 -0.098225086
## AKT_N           -0.157520502  0.058926655 -0.104470181  0.040638831
## BRAF_N          -0.043750596 -0.159681223  0.020960762 -0.172677031
## CAMKII_N        -0.154158458  0.085625431  0.009404601 -0.125204882
## CREB_N          -0.127272612  0.088699874  0.115323669 -0.168551788
## ELK_N           -0.161084608 -0.075501524 -0.063165467  0.109072661
## ERK_N           -0.163093078 -0.109350964 -0.093067655  0.071078918
## GSK3B_N         -0.124739516 -0.184571102 -0.012416352 -0.078944335
## JNK_N           -0.169108275  0.008458947  0.055159197 -0.138278158
## MEK_N           -0.189007348  0.006149500  0.035625851 -0.021182085
## TRKA_N          -0.188973866 -0.071714275  0.013829212 -0.003925011
## RSK_N           -0.124540393  0.076171840  0.079473303 -0.163019364
## APP_N           -0.144537727 -0.073636561  0.061754382 -0.112390737
## Bcatenin_N      -0.180519205 -0.050795422 -0.079941100  0.074640642
## SOD1_N          -0.050127578  0.173783270 -0.035406114  0.095592450
## MTOR_N          -0.098840365  0.126525816 -0.151551662 -0.120889106
## P38_N           -0.030605284  0.200955019 -0.108782279 -0.072507674
## pMTOR_N         -0.132229722  0.119893975 -0.140375324 -0.032408854
## DSCR1_N         -0.108488042  0.097070747 -0.065827521 -0.174844647
## AMPKA_N         -0.145334730  0.014763415 -0.173081202 -0.073141505
## NR2B_N          -0.134655858  0.112850727 -0.120871997 -0.092136710
## pNUMB_N         -0.119684868 -0.077912308 -0.028436007 -0.153068822
## RAPTOR_N        -0.109414644  0.110911134 -0.069624736 -0.179189993
## TIAM1_N         -0.138582435  0.023138807 -0.068591979 -0.125514707
## pP70S6_N        -0.018540822  0.076401892  0.150214793 -0.160173195
## NUMB_N          -0.107384056 -0.144561564  0.028019804  0.177593722
## P70S6_N         -0.104247794 -0.056370368 -0.048033292  0.217563040
## pGSK3B_N        -0.082356183 -0.126338242  0.187398942  0.039692359
## pPKCG_N         -0.033301477 -0.044596190  0.259282084 -0.018893597
## CDK5_N          -0.092238679 -0.093080550  0.124556008  0.087236585
## S6_N            -0.047017094 -0.141040997  0.196608792  0.082314906
## ADARB1_N        -0.117065338 -0.084093804 -0.054499158  0.026895306
## AcetylH3K9_N    -0.020854340  0.006346397  0.220151518  0.045013795
## RRP1_N          -0.016520110  0.025341951  0.139697658  0.002405727
## BAX_N           -0.118048212 -0.059253377  0.081315175  0.184528746
## ARC_N           -0.106436578  0.158392705 -0.042572135  0.169359269
## ERBB4_N         -0.118474142  0.081611258  0.089365865  0.158467662
## nNOS_N          -0.103791212  0.067088335  0.019291584  0.187345798
## Tau_N           -0.043549097  0.007797456  0.188822512  0.081356291
## GFAP_N          -0.023725126 -0.036795762  0.190579582  0.001503282
## GluR3_N         -0.014346555 -0.025042372 -0.042278251  0.207573465
## GluR4_N         -0.071797738 -0.033141151  0.069631847  0.185864321
## IL1B_N           0.002726217  0.178798791  0.030147318  0.162635856
## P3525_N         -0.080732155  0.008969222  0.171228698  0.117683585
## pCASP9_N        -0.083707555  0.016674722  0.047056644  0.227872613
## PSD95_N         -0.113803110  0.073268635  0.040173637  0.188031055
## SNCA_N          -0.005116831  0.210716749 -0.001544584  0.045303835
## Ubiquitin_N     -0.106617335  0.162184994  0.089481298  0.071872533
## pGSK3B_Tyr216_N -0.061870011 -0.076946259  0.188567009  0.066739004
## SHH_N            0.001133055  0.124041277  0.075108425  0.032402835
## BAD_N            0.028143854  0.135503047  0.203107300 -0.109427183
## BCL2_N           0.009888852  0.171545015  0.107303771 -0.064824956
## pS6_N           -0.106436578  0.158392705 -0.042572135  0.169359269
## pCFOS_N          0.066538643  0.128185075  0.037930646 -0.021847291
## SYP_N           -0.147794903 -0.003044304  0.057280848  0.110202460
## H3AcK18_N       -0.007207577  0.097813727  0.218462875  0.023402032
## EGR1_N           0.039010844  0.198254273  0.073373290 -0.054208680
## H3MeK4_N         0.012835065  0.169080858  0.206209787 -0.042297729
## CaNA_N          -0.043174474 -0.198839821  0.109924550  0.025220355
## Genotype        -0.019904478 -0.050222428  0.191928005 -0.068424770
## Treatment       -0.007497068 -0.028035084  0.013533824  0.071017423
## Behavior        -0.027959300  0.225574200 -0.031830288  0.084179434
## class           -0.032835367  0.051212878  0.164544376 -0.007780309
##                           PC5
## DYRK1A_N         0.1117682443
## ITSN1_N          0.1547529478
## BDNF_N          -0.0260408952
## NR1_N           -0.0254337641
## NR2A_N          -0.0006116782
## pAKT_N          -0.0033137399
## pBRAF_N         -0.0356778215
## pCAMKII_N       -0.0349603371
## pCREB_N          0.0752967213
## pELK_N           0.1054085251
## pERK_N           0.0259340662
## pJNK_N          -0.0556849399
## PKCA_N          -0.1505316015
## pMEK_N          -0.0055497636
## pNR1_N          -0.0162033884
## pNR2A_N         -0.0805671336
## pNR2B_N         -0.0170506429
## pPKCAB_N        -0.2083187334
## pRSK_N          -0.0784498536
## AKT_N            0.0980780285
## BRAF_N           0.0804143015
## CAMKII_N         0.0027579229
## CREB_N          -0.0229569258
## ELK_N            0.0520845875
## ERK_N            0.0302177710
## GSK3B_N         -0.0172958333
## JNK_N           -0.0570414104
## MEK_N           -0.0125499642
## TRKA_N          -0.0228595976
## RSK_N           -0.0339481484
## APP_N            0.1524791238
## Bcatenin_N       0.0525550449
## SOD1_N           0.1863944490
## MTOR_N          -0.0479993313
## P38_N           -0.0221034595
## pMTOR_N         -0.0339284208
## DSCR1_N          0.0255963310
## AMPKA_N          0.0010955592
## NR2B_N          -0.0207351177
## pNUMB_N         -0.0183147018
## RAPTOR_N         0.0102553572
## TIAM1_N          0.1121487695
## pP70S6_N        -0.0300695402
## NUMB_N           0.0135936671
## P70S6_N          0.0705295784
## pGSK3B_N        -0.1163221057
## pPKCG_N         -0.1023313948
## CDK5_N          -0.1441930012
## S6_N             0.1469653472
## ADARB1_N        -0.0453110521
## AcetylH3K9_N     0.2373660441
## RRP1_N          -0.0315813368
## BAX_N           -0.0517769743
## ARC_N            0.0676924284
## ERBB4_N          0.0514687586
## nNOS_N           0.0646350566
## Tau_N            0.3314105333
## GFAP_N          -0.1269545279
## GluR3_N         -0.2139354370
## GluR4_N         -0.1172821714
## IL1B_N           0.0406342555
## P3525_N         -0.0458690943
## pCASP9_N        -0.1017167489
## PSD95_N         -0.0685641263
## SNCA_N          -0.0349285335
## Ubiquitin_N      0.0006410577
## pGSK3B_Tyr216_N -0.0869042385
## SHH_N            0.0046617920
## BAD_N           -0.1673299793
## BCL2_N          -0.1676640408
## pS6_N            0.0676924284
## pCFOS_N         -0.1756054642
## SYP_N           -0.1370893540
## H3AcK18_N        0.1685759118
## EGR1_N          -0.1237677521
## H3MeK4_N        -0.0044784372
## CaNA_N          -0.1532080036
## Genotype         0.3047119269
## Treatment       -0.0674133089
## Behavior         0.1294873323
## class            0.3236199992
## attr(,"const")
## [1] 14.5348

По скольку переменных очень много интерпретируем только те, котрые рассматривались в первых 2 - х разделах настоящей работы. Так, при увеличении всех 5 компонент значение экспрессии BDNF снижается и, напротив, экспрессия ERBB4 увеличевается при росте всех компонент, кроме 1.

Посторим график ординации в осях главных компонент разделенных по классам:

На данных графиках слабо видны различия между группами. Посмотрим что покажут данные nMDS.

## 
## Call:
## metaMDS(comm = df_analys, distance = "bray", autotransform = F) 
## 
## global Multidimensional Scaling using monoMDS
## 
## Data:     df_analys 
## Distance: bray 
## 
## Dimensions: 2 
## Stress:     0.2274435 
## Stress type 1, weak ties
## Two convergent solutions found after 20 tries
## Scaling: centring, PC rotation, halfchange scaling 
## Species: expanded scores based on 'df_analys'

Применем метод вычисления расстояний bray, так как при его использовании показатель Stress максимален и равен 0.23, что превышает значение в 0.15. Тоесть качество ординации - приемлемо. Из графика можно видеть, что происходит разделение данных по наличию стимуляции к обучнению и диагнозу, что совподает с данными полученными в процессе ранее проведенной Anova.

Попробуем провести perMANOVA - анализ, чтобы понять, как именно различаются исследуемые группы. Для выравнивание значений в данных проведем их центрирование с логарифмированием. Результаты выведем ввиде box-plot.

Как видно из графика, центрирование удалось, однако, во всех переменных присутствует большое число выбросов, что скорей всего негативно отразится на дальнейшем анализе. Проверим на сколько сильно различаются дисперсии в группах:

## Analysis of Variance Table
## 
## Response: Distances
##            Df  Sum Sq Mean Sq F value    Pr(>F)    
## Groups      7  3.6516 0.52166  14.115 < 2.2e-16 ***
## Residuals 544 20.1053 0.03696                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Как видно из анализа Anova для дисперсий и графика, дисперсии различаются, perMANOVA делать нельзя.

1.5 Выводы

1) Можно утверждать, что экспрессия белков различается в экспериментальных группах. Различия в группах обусловленны в большей степени диагнозом и стимуляцией к обучению и в меньшей степени инъекцией мемантина.
2) Основная проблема даннных - это выбросы. В данном случае чистка является не тревиальным процессом в силу огромного числа переменных и выбросов. Без выполнения данного условия построение качественной дисперсионной модели и осуществление perMANOVA - анализа - затруднительно.